Recherche approchée d'information dans une base de documents semi-structurés

نویسندگان

  • Eugen Popovici
  • Gildas Ménier
  • Pierre-François Marteau
چکیده

RÉSUMÉ. Nous proposons des algorithmes dédiés à l'indexation et à la recherche approximative d'information dans les bases de données hétérogènes semi-structurées XML. Le modèle d'indexation proposé est adapté à la recherche de contenu textuel dans les contextes XML définis par les structures d'arbres. Les mécanismes de recherche approchée mis en œuvre s’appuient sur une distance de Levenshtein modifiée et des heuristiques de fusion d'information. Une implémentation exploitant simultanément l'information structurée, i.e. l’arborescence des éléments XML, et le contenu des documents indexés est décrite. Les performances obtenues dans le cadre de la campagne d’évaluation INEX 2005 sont présentées et analysées. ABSTRACT. We propose specific data structures designed to the indexing and retrieval of information elements in heterogeneous XML data bases. The indexing scheme is well suited to the management of various contextual searches, expressed either at a structural level or at an information content level. The approximate search mechanisms are based on a modified Levenshtein editing distance and information fusion heuristics. The implementation described highlights the mixing of structured information presented as field/value instances and free text elements. The retrieval performances of the proposed approach are evaluated within the INEX 2005 evaluation campaign. MOTS-CLÉS : XML, Base de données hétérogènes, recherche et extraction d'information, fusion d'information, distance d'édition de Levenshtein, opérateurs de recherche, INEX 2005.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Compression de structure XML pour la recherche d'information structurée

RÉSUMÉ. La recherche d’informations dans les documents structurés nécessite le stockage de la structure des documents indexés dans les index. Si de nombreuses méthodes sont connues et largement utilisées pour compresser les index pour les documents plats, le stockage efficient de la structure est peu étudié. Nous présentons une représentation de structure arborescente adaptée à la recherche d’i...

متن کامل

Recherche d'information dans MEDLINE

RÉSUMÉ. Cet article décrit la banque documentaire MEDLINE depuis laquelle une collection test comprenant environ 4,5 million de documents structurés a été construite à partir des campagnes d’évaluation TREC. Dans une deuxième partie, nous évaluons et comparons l’efficacité du dépistage de l’information de dix modèles (probabiliste, modèle de langue, approches vectorielles). Cette évaluation est...

متن کامل

Interprétation vague des contraintes structurelles pour la RI dans des corpus de documents XML - Évaluation d'une méthode approchée de RI structurée

RÉSUMÉ. Nous proposons des algorithmes dédiés à l’indexation et à la recherche approximative d’information dans les bases de données hétérogènes semi-structurées XML. Le modèle d’indexation proposé est adapté à la recherche de contenu textuel dans les contextes XML définis par les structures d’arbres. Les mécanismes de recherche approchée mis en œuvre s’appuient sur une distance de Levenshtein ...

متن کامل

DocCat: un composant logiciel de catégorisation de documents et de marquage sémantique XML

Résumé : Cet article présente DocCat un composant logiciel de catégorisation de documents. Cet outil permet de générer des balises sémantiques et de les stocker dans une base de données au format XML. DocCat intègre une méthode d’apprentissage supervisée pour classer des documents texte dans des catégories prédéfinies. Les catégories ainsi induites permettent le balisage du document. L’intérêt ...

متن کامل

Construction d'une ontologie de descripteurs UCD en astronomie

HAL is a multidisciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L'archive ouverte pluridisciplinaire HAL, est destinée au dépôt età la diffusion de documents scientifiques de niveau r...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2006